AI资讯新闻榜单内容搜索-LLM

Codeforces难题不够刷？谢赛宁等造了个AI出题机，能生成原创编程题

随着大型语言模型（LLM）朝着通用能力迈进，并以通用人工智能（AGI）为最终目标，测试其生成问题的能力也正变得越来越重要。尤其是在将 LLM 应用于高级编程任务时，因为未来 LLM 编程能力的发展和经济整合将需要大量的验证工作。

来自主题: AI技术研报

8007 点击 2025-10-20 15:13

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

在 LLM 领域，扩大强化学习算力规模正在成为一个关键的研究范式。但要想弄清楚 RL 的 Scaling Law 具体是什么样子，还有几个关键问题悬而未决：如何 scale？scale 什么是有价值的？RL 真的能如预期般 scale 吗？

来自主题: AI技术研报

9371 点击 2025-10-19 17:54

多轮Agent训练遇到级联失效？熵控制强化学习来破局

在训练多轮 LLM Agent 时（如需要 30 + 步交互才能完成单个任务的场景），研究者遇到了一个严重的训练不稳定问题：标准的强化学习方法（PPO/GRPO）在稀疏奖励环境下表现出剧烈的熵值震荡，导致训练曲线几乎不收敛。

来自主题: AI技术研报

6762 点击 2025-10-19 12:06

递归语言模型登场！MIT华人新作爆火，扩展模型上下文便宜又简单

目前，所有主流 LLM 都有一个固定的上下文窗口（如 200k, 1M tokens）。一旦输入超过这个限制，模型就无法处理。即使在窗口内，当上下文变得非常长时，模型的性能也会急剧下降，这种现象被称为「上下文腐烂」（Context Rot）：模型会「忘记」开头的信息，或者整体推理能力下降。

来自主题: AI资讯

7414 点击 2025-10-17 16:12

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

来自主题: AI技术研报

8386 点击 2025-10-17 15:33

NTU等联合提出A-MemGuard：为AI记忆上锁，投毒攻击成功率暴降95%

在AI智能体日益依赖记忆系统的时代，一种新型攻击悄然兴起：记忆投毒。A-MemGuard作为首个专为LLM Agent记忆模块设计的防御框架，通过共识验证和双重记忆结构，巧妙化解上下文依赖与自我强化错误循环的难题，让AI从被动受害者转为主动守护者，成功率高达95%以上。

来自主题: AI技术研报

7640 点击 2025-10-16 14:51

首个多轮LLM Router问世, Router-R1可让大模型学会「思考–路由–聚合」

“如果一个问题只需小模型就能回答，为什么还要让更贵的大模型去思考？”

来自主题: AI技术研报

8476 点击 2025-10-16 11:35

机器人「看片」自学新技能：NovaFlow从生成视频中提取动作流，实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人，是机器人学领域一个长期追逐的圣杯。近年来，随着大型语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，许多研究者将希望寄托于视觉 - 语言 - 动作（VLA）模型，期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报

8302 点击 2025-10-13 11:02

听说，大家都在梭后训练？最佳指南来了

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随；监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

来自主题: AI技术研报

7438 点击 2025-10-12 14:59

又一推理新范式：将LLM自身视作「改进操作符」，突破长思维链极限

Meta 超级智能实验室、伦敦大学学院、Mila、Anthropic 等机构的研究者进行了探索。从抽象层面来看，他们将 LLM 视为其「思维」的改进操作符，实现一系列可能的策略。研究者探究了一种推理方法家族 —— 并行 - 蒸馏 - 精炼（Parallel-Distill-Refine, PDR），

来自主题: AI技术研报

9196 点击 2025-10-10 10:33